AI产业链地图·知识库 NVIDIA TensorRT-LLM · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/NVIDIA TensorRT-LLM

更新 2026·06·17

概念技术 / 术语

NVIDIA TensorRT-LLM

TensorRT-LLM · TensorRT · TRT-LLM

TensorRT 是 NVIDIA 的高性能深度学习推理优化器和运行时引擎；TensorRT-LLM 是专门面向 LLM 推理的开源库，提供从 PyTorch / Hugging Face 模型到优化部署的完整工具链。

NVIDIA TensorRT-LL CONCEPT · 概念

首次提出: 2023
关键参与方: [[NVIDIA]] · [[vLLM]] · [[硅基流动]]
反向引用: 22 处 · 来自 16 页

归属推理引擎LLMNVIDIA第四层

NVIDIA TensorRT-LLM

NVIDIA 推出的高性能深度学习推理优化器；TensorRT-LLM 专门针对大语言模型推理优化；GPU 推理领域事实标准。

定义

TensorRT 是 NVIDIA 的高性能深度学习推理优化器和运行时引擎；TensorRT-LLM 是专门面向 LLM 推理的开源库，提供从 PyTorch / Hugging Face 模型到优化部署的完整工具链。

核心技术

FP16 / INT8 / INT4 量化：多精度优化
层融合（Layer Fusion）：将多个算子融合成单一 CUDA Kernel，减少 GPU 内核启动开销
动态张量内存管理：减少内存碎片
In-Flight Batching（类似 vLLM Continuous Batching）
Tensor Parallelism / Pipeline Parallelism
投机解码（Speculative Decoding）支持
KV-Cache 优化

主要玩家

NVIDIA（开发与维护）
主要云厂商部署：Microsoft Azure、Google GCP、AWS
中国云厂商：阿里云百炼、腾讯云 TI、百度千帆等几乎都集成

在 AI 产业链中的角色

GPU 推理事实标准：凭借 NVIDIA GPU 的绝对市场优势，TensorRT 在 GPU 推理优化领域具有事实标准地位
企业级首选：TensorRT-LLM 已成为主流云服务商部署大模型的首选推理框架之一
生态控制力：CUDA 生态的延伸 — 与 NVIDIA Triton Inference Server 配合形成完整推理基础设施

与 vLLM 的差异

维度	TensorRT-LLM	vLLM
性质	NVIDIA 官方	UC Berkeley 开源
性能	在 NVIDIA GPU 上最优	跨硬件通用
易用性	编译流程复杂	Python 友好
硬件覆盖	仅 NVIDIA	多厂商（含 AMD、华为、Intel）
社区	NVIDIA 主导	开源社区驱动

演进历史

2019 TensorRT 7 发布
2023-10 TensorRT-LLM 首发
2024 持续更新，支持 Llama / Mixtral / Mistral / DeepSeek 等主流开源模型
2025 与 NVIDIA Triton 集成更深，Blackwell GPU 原生优化

相关概念

⚔ competitor:: vLLM ∈ belongs_to::4-04-模型部署与优化

反向引用链接到本页

反向引用 22

按引用量 ↓

… # NVIDIA Triton Inference Server > [[NVIDIA]] 推出的**开源推理服务框架**；支持 NVIDIA TensorRT-LLM、PyTorch、TensorFlow、ONNX 等多种模型格式；**企业级 GPU 推理服务主导**。 ## 定义 Triton Inference Server 是一个开源的推理服务化框架，支持多种深度学习框架的模型部署，提供企业级 …

… - 主要部署场景：金融、医疗、零售、汽车智能化等需要多模型协同推理的企业场景 ## 在 AI 产业链中的角色 - **企业级 GPU 推理服务主导**：在需要多模型协同推理的复杂场景中优势明显 - **与 NVIDIA TensorRT-LLM 配合**：TensorRT-LLM 负责优化，Triton 负责服务化 - **MaaS 基础设施**：是众多云厂商和 AI 公司构建模型服务平台的底层框架 …

… - **2024** 与 TensorRT-LLM、NIM (NVIDIA Inference Microservices) 深度集成 - **2025** 适配 Blackwell GPU 架构 ## 相关概念 - NVIDIA TensorRT-LLM- [[vLLM]] - [[MaaS]] - [[Continuous Batching]] ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… vLLM Inc.（由 [[Anyscale]] 孵化）进行商业化探索，但目前仍以**开源社区发展为主**。商业模式探索方向：托管推理云、企业级支持、行业定制版。 ## 在 4-04 中的角色 - **三大推理引擎技术路线之一**：与 NVIDIA TensorRT-LLM（硬件厂商配套）、[[硅基流动]] 自研构成三足鼎立 - **降低推理成本的核心引擎**：PagedAttention + Continuous Batching 是 2024-25 推理成本暴降 90% 的主要技术驱动力之一 …

… - DeepSeek-R1 等开源大模型部署的默认推理引擎 - 推动 [[Continuous Batching]] / [[投机解码]] / [[FlashAttention]] 等技术进入工业级实践 - 反向影响 NVIDIA TensorRT-LLM 的开发优先级 ## 与 AI 产业链关系 ↑ up::[[NVIDIA]] [[AMD]] [[华为]] — 后端 GPU/NPU 硬件 ⚔ competitor::[[NVIDIA TensorRT-LLM]] [[SGLang]] …

… - 反向影响 [[NVIDIA TensorRT-LLM]] 的开发优先级 ## 与 AI 产业链关系 ↑ up::[[NVIDIA]] [[AMD]] [[华为]] — 后端 GPU/NPU 硬件 ⚔ competitor::NVIDIA TensorRT-LLM [[SGLang]] [[DeepSpeed]] ↓ down::[[Anyscale]] [[硅基流动]] [[火山引擎]] — 推理服务平台底层 ∈ belongs_to::[[4-04-模型部署与优化]] …

查看原文 →

… 在 [[DeepSeek-R1]] 与"厘时代"定价驱动下，整个子行业进入推理普惠的爆发期 — [[火山引擎]]、[[硅基流动]]、[[阿里云]] 百炼三家主导中国大模型公有云推理；[[vLLM]] + NVIDIA TensorRT-LLM 在引擎层形成开源/硬件厂商双轨；[[中科创达]] + [[Qualcomm]] + [[联发科]] 撑起端侧；[[第四范式]] + [[Databricks]] + [[Weights & Biases]] 撑起 MLOps。 …

… R 37.3%） | [行业](../来源摘要/4-04-模型部署与优化.md.md) | | 火山引擎大模型公有云市占（2025H1） | 49.2%（中国第一） | IDC | ## 全球竞争格局 ### 推理引擎技术三大路线 - NVIDIA TensorRT-LLM **GPU 推理事实标准**（硬件厂商配套） - [[vLLM]] **开源王者**（UC Berkeley，GitHub 45,000+ Star） - [[硅基流动]] 自研 / [[DeepSpeed]] / [[SGLang]] …

查看原文 →

… ## 在 4-04 模型部署与优化中的角色 - **Optimum 工具包**：模型优化加速套件，支持 [[ONNX Runtime]] / [[OpenVINO]] / NVIDIA TensorRT-LLM 多种后端加速框架，提供量化、剪枝等模型压缩功能；弥合学术模型与生产部署之间的鸿沟。 - **Inference Endpoints**：托管推理服务（MaaS 形式），欧美企业一键部署模型的快捷路径。 …

… - **Inference Endpoints**：托管推理服务（MaaS 形式），欧美企业一键部署模型的快捷路径。 - **生态枢纽**：[[vLLM]] / [[llama.cpp]] / NVIDIA TensorRT-LLM 等推理引擎几乎都以 HF Hub 为模型源；推理引擎的兴起反向放大了 HF 作为模型分发中央节点的网络效应。 - **来源**：[[4-04-模型部署与优化|4-04 子行业深度]] …

查看原文 →

… 3. **高速互联**：[[InfiniBand]] / [[RDMA]] / [[RoCE]] 4. **存算分离**：计算节点与存储解耦，提升资源利用率 5. **大模型推理**：[[vLLM]] / TensorRT 加速引擎 6. **云服务三层**：[[IaaS]] / [[PaaS]] / [[MaaS]] 7. **部署形态**：[[公有云]] / [[私有云]] / [[混合云]] …

查看原文 →

… 3. **MLOps 工作流**：[[实验管理]] / [[超参数追踪]] / [[模型版本控制]] / [[特征工程]] 4. **模型部署**：[[ONNX]] / TensorRT / [[A-B 测试]] / [[蓝绿部署]] 5. **模型监控**：[[数据漂移检测]] / [[推理延迟监控]] / [[模型性能退化告警]] 6. **算力调度**：[[算力网络]] / [[异构算力池化]] / [[全国一体化算 …

查看原文 →

… - 学术界：MIT-IBM Watson AI Lab（韩松团队） - 工业界：[[Hugging Face]] / AutoAWQ / TinyChat - 推理引擎：[[vLLM]] / NVIDIA TensorRT-LLM / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 [[GPTQ]]、[[GGUF]] 并列三大主流方案 …

查看原文 →

… - 每 step 结束后，已完成请求立即返回，等待中的新请求立即加入 - GPU 利用率从 30% 提升至 80%+ ## 主要玩家 - [[vLLM]]（首先在工业级开源引擎中实现） - NVIDIA TensorRT-LLM 称为 In-Flight Batching - [[Hugging Face]] TGI（Text Generation Inference） - [[硅基流动]] 自研引擎 …

查看原文 →

… - 学术界：IST Austria（Elias Frantar 等） - 工业界：[[Hugging Face]] Optimum / AutoGPTQ 集成 - 推理引擎：[[vLLM]] / NVIDIA TensorRT-LLM / llama.cpp 原生支持 ## 在 AI 产业链中的角色 - **大模型量化事实标准之一**：与 [[AWQ]]、[[GGUF]] 并列三大主流方案 …

查看原文 →

… - **与 [[Qwen]] / [[DeepSeek]] 形成"东西双雄"格局** — 开源模型全球份额合计 ~30%（2025 中） - **推理生态锚定作用**：[[llama.cpp]] / [[vLLM]] / TensorRT-LLM 都把 Llama 当基准 ### 配套产品 - **Code Llama** — 代码大模型 - **Meta AI Studio** — 用户自创 AI Agent 平台 …

查看原文 →

… - 训练：分布式训练框架（PyTorch / DeepSpeed / Megatron）、超参搜索 - 数据：标注平台、特征仓库、向量数据库 - 部署：模型推理服务（[[vLLM]] / TensorRT）、A/B 测试 - Agent：工具调用、记忆、工作流编排 - **MLOps 闭环**：从数据到训练到部署的端到端自动化与 [[MaaS]] 边界：PaaS 提供"训练自己的模型"的工具链； …

查看原文 →

… - 不同请求间共享相同前缀的 KV 页（节省显存） - 大幅提升单卡并发数（通常 2-4×） ## 主要玩家 - [[vLLM]]（首创与开源实现） - 后续被 NVIDIA TensorRT-LLM、[[SGLang]]、[[硅基流动]] 自研引擎等主流推理引擎借鉴 ## 在 AI 产业链中的角色 - **推理成本下降的核心技术驱动力之一**：与 [[Continuous Batching]] 共同支撑 LLM 推理吞吐量 10- …

查看原文 →

… - **算子库**：[[CUDA 生态]] 数千算子需要在国产芯片上重新实现 - **编译器**：模型图编译、Kernel 融合、内存调度 - **推理引擎**：[[vLLM]]、NVIDIA TensorRT-LLM 等需要重写以利用国产硬件特性 - **量化方案**：FP16/INT8 在国产芯片上的精度与性能平衡 - **多卡互联**：替代 [[NVLink]] 的国产互联方案 …

查看原文 →

… - **效果**：端到端解码速度 2-4× 提升，输出质量与原模型完全一致 ## 主要玩家 - 学术界：[[Google]] DeepMind 2022 原创 - [[vLLM]]：原生支持投机解码 - NVIDIA TensorRT-LLM：在 H100 / Blackwell 上深度优化 - 中国：[[DeepSeek]] R1 使用 multi-token prediction（变种） ## 变体 …

查看原文 →

… - **[[MLflow Model Serving]]** — MLflow 内置 ### 高性能推理引擎 - **[[NVIDIA Triton]]** Inference Server — GPU 高吞吐 - **TensorRT-LLM** — NVIDIA LLM 优化（隶属 4-04） - **[[vLLM]]** / **[[SGLang]]** / **[[TGI]]** — LLM 推理框架 …

查看原文 →

… 息]] DCU、[[寒武纪]] MLU、[[摩尔线程]] GPU 等国产硬件全栈 - **率先推出基于国产算力的 [[DeepSeek-R1]]/V3 服务** ## 在 4-04 中的角色 - **推理引擎三大技术路线之一**（vs NVIDIA TensorRT-LLM vs [[vLLM]]） - **独立推理服务商**：在 [[火山引擎]]、[[阿里云]] 百炼等云厂商之外提供低成本、国产算力可选的推理服务 - **DeepSeek 红利受益方**：2025 年 1 月 DeepSeek-R1 爆发， …

查看原文 →